AI资讯新闻榜单内容搜索- LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  LLM
32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel,面对完整的端到端 GPU 程序(如整个 VisionTransformer 推理)往往束手无策。

来自主题: AI技术研报
7720 点击    2026-03-05 14:28
字节杀疯了!豆包 Seed 2.0 专家模式已上线

字节杀疯了!豆包 Seed 2.0 专家模式已上线

字节杀疯了!豆包 Seed 2.0 专家模式已上线

我天!感觉 Seed 1.8 发布还没多久,没想到 Doubao-Seed-2.0 这么快就杀到了…今天发都算是晚讯了。据官方介绍,这次 Seed 2.0 多模态理解能力全面升级,还强化了 LLM 与 Agent 能力,模型在真实长链路任务中可以稳定推进。

来自主题: AI资讯
8996 点击    2026-03-02 23:22
大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论,而是采取更加务实的路径 —— 通过整理现有文献中的失败现象,构建统一框架,系统分析大语言模型的推理短板。

来自主题: AI技术研报
7690 点击    2026-02-26 10:52
一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」

一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」

一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」

近日,微软Bing Ads与DKI团队发表论文《AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks》,宣布基于DeepSeek-R1 671B打造了统一的离线推理中枢AdNanny,用单一模型承载所有离线任务。这标志着从维护一系列任务特定模型,转向部署一个统一的、推理中心化的基础模型,从

来自主题: AI技术研报
8883 点击    2026-02-18 13:29
JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。

来自主题: AI技术研报
10163 点击    2026-01-29 14:55
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了巨大的计算开销和显存占用,严重制约了模型的推理效率。

来自主题: AI技术研报
7275 点击    2026-01-27 16:17
R1一周年,DeepSeek Model 1悄然现身

R1一周年,DeepSeek Model 1悄然现身

R1一周年,DeepSeek Model 1悄然现身

2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。

来自主题: AI资讯
10561 点击    2026-01-21 09:51
Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

来自主题: AI技术研报
9519 点击    2026-01-18 14:58
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

大语言模型(LLMs)的爆发式增长引领了人工智能领域的范式转移,取得了巨大的工程成功。然而,一个关键的悖论依然存在:尽管 LLMs 在实践中表现卓越,但其理论研究仍处于起步阶段,导致这些系统在很大程度上被视为难以捉摸的「黑盒」。

来自主题: AI技术研报
6178 点击    2026-01-16 10:09
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题

AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题

AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题

在 AI 辅助 Coding 技术快速发展的背景下,大语言模型(LLMs)虽显著提升了软件开发效率,但开源的 LLMs 生成的代码依旧存在运行时错误,增加了开发者调试成本。

来自主题: AI技术研报
9415 点击    2026-01-14 15:28